当大模型开始「考上」一本

摘要

参加 2024 河南高考，豆包和文心 4.0 过了一本线，但比 GPT-4o 还差点。

今天的大模型，智力水平到底如何？

2024 年高考陆续出分，我们想要解开这个过去一年普罗大众一直争论不休的话题。高考是衡量人类智力和学识水平的标尺之一，以今天大模型的水准，参加高考到底是能轻松考上清华北大，还是连上大专都够呛。

我们邀请了九个大模型参加这场考试——包括公认大模型能力天花板的 GPT-4o，以及四个国内大厂（百度、阿里、腾讯、字节）和四个新锐独角兽（百川、智谱、月之暗面和 MiniMax）的公开模型产品。

他们考试的题目是覆盖地域众多、难度最高的新课标 Ⅰ 卷，这也是高考大省河南使用的考卷。我们也将以河南的分数线评判，这九个大模型考生在中国最卷的高考大省，到底能上几本。

有意思的是，这份考卷的作文题目也和 AI 相关，为大模型的作文打分的北京市级骨干教师、怀柔区语文学科带头人夏老师，以前有过多次参加全国高考语文阅卷的经历，但她也直言，「当了多年语文老师，今年是第一次看到 Al 写作的文章。」

好消息是人类没有一败涂地，坏消息是几个大模型大概能上个一本了，而几年前 AI 甚至还做不出小学生的题目。

01 挑战高考，大模型能上几本？

后面会有很多有趣的答题细节展示。但在观看结果之前，首先让我们花一点时间简单描述一下这次大模型高考测试的方法：

考题：

使用 2024 年高考难度最高的新课标 Ⅰ 卷，也是高考大省河南省使用的全套考题。

考生名单：

GPT-4o（OpenAI）、豆包（字节跳动）、文心 4.0（百度）、百小应（百川智能）、通义千问 2.5（阿里巴巴）、Kimi 智能助手（月之暗面）、元宝（腾讯）、智谱清言（智谱 AI）以及海螺 AI（MiniMax）

测试方法：

鉴于大模型回答问题存在一定随机性，测试团队对所有科目进行2轮测试，取平均分。公式的输入：采用 Markdown/latex 格式。对图像问题；如模型可识别图片，输入图片与文字；如模型无法识别图片，则只输入文字。判分方式与人类考生统一标准：选择题和填空题只看最终结果，不考虑模型解题过程是否准确；多选题如提交错误答案为零分，如提交部分正确答案，则按相应比例给分；解答题由测试团队参考标准答案，按照解题步骤算分。语文作文由测试团队特邀学科老师打分，打分过程对AI产品做匿名处理。委托专业的 AI 数据服务商进行统一规范测试截图，所有测试均通过各款大模型产品的 PC 端官网公开入口完成操作。

考试结果如下图所示，整体来看大模型在文科的表现更加优异，最高分可以达到 562 分（GPT-4o），相比之下理科成绩不尽如人意，最高只有 478.5 分，而且基本所有大模型的理科成绩都要比文科总成绩低了 70-80 分。

根据今天公布的河南高考分数线，最高分的 GPT-4o 可以在国内最「卷」的河南超过一本线 41 分，豆包 542.5 分的文科成绩也稳稳超过一本线，紧随其后的是 537.5 分的文心 4.0，以及正好卡到文科一本录取分数线 521 分的百小应。

对于河南高考理科 511 分的一本线，表现最好的文心 4.0 仍然有超过 30 分的差距，但从测试结果来看，大模型目前的智力水平找个二本的理科专业已经绰绰有余。

具体科目来看，英语是大模型表现最优异的学科，九个大模型的平均分高达 132 分（满分 150），大部分大模型都可以做到客观题接近满分，而只在作文少量失分，这也是大模型表现最接近的学科。其次是语文，但不论中外大模型语文的得分都要略差于英语。

相比于语言类学科，大模型的数理学科表现明显差距很大，不论数学还是理综的物化生都是不及格，基本只能做对少量一部分客观题，比较大模型的理科成绩优劣没有太多的参考意义。

相比理科，博闻强记的大模型的文科成绩颇为亮眼。譬如 GPT-4o、字节豆包大模型、文心 4.0、百川 4.0，在历史、政治两大学科都能达到 80 分左右的水准，而 GPT-4o 答出的 237 分文综，在考生里已经可以达到中上的水平。

那么具体每个学科大模型的表现如何？让我们先从高考第一门的语文开始说起。

02 语文：很好的作文写手，但没有心

在语文考试里，大模型的客观题答分依然不错，包括 GPT-4o 这个外国考生在内基本都是满分，差距也主要体现在写作上。

这次考试的作文题目是这样的：

随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？以上材料引发了你怎样的联想和思考？请写一篇文章。

先说好的方面，18 篇文章中有 11 篇超过了 48 分，平均分在 46.8 分左右——非常高了。阅卷的夏老师曾多次参加全国高考语文阅卷，她对 18 篇作文的整体评价是——大模型的写作能力已经超过学生的平均水平。你可以在文章里看到清晰的论述框架和逻辑，并且行文流畅鲜有语病。

「木心曾言：「人生在于体会，今时哪及昔时？」在科技蓬勃发展的当今社会，我们借助互联网与人工智能，似乎能迅速解答许多问题。然而，这是否意味着我们面临的问题会越来越少呢？恰恰相反，我认为，在知识易得的今天，我们反而会有「

云奕文章网

当大模型开始「考上」一本

相关推荐：